Claude3.5 Sonnet テクニカルレポート
https://scrapbox.io/files/6674a8acf9a43f001dbcf619.png
ポイント
Vision機能のベンチマークでも、一部を除き、SoTA オープンソースのコードから、バグ修正や新機能なプルリクエストを実装させ、テストを全部通るか評価させた
1. はじめに
このClaude 3モデルカードの追補では、Claude 3.5 Sonnetについて説明します。これは新しいモデルで、当社の以前の最高性能モデルであるClaude3 Opusを上回る性能を発揮しつつ、より高速かつ低コストで動作します。Claude 3.5 Sonnetは、コーディングや視覚処理の向上など、機能が改善されています。Claude 3モデルファミリーの進化版であるため、新しいモデルカードではなく追補を提供しています。主要な評価と安全性テストの結果を更新して提供します。 2 評価
推論、コーディング、質問応答
Claude 3.5 Sonnetを、推論、読解力、数学、科学、コーディングをカバーする一連の業界標準ベンチマークで評価しました。これらのベンチマーク全体で、Claude 3.5 Sonnetは当社の以前のフロンティアモデルであるClaude 3 Opusを上回る性能を示しています。また、大学院レベルの科学知識(GPQA)、一般的な推論(MMLU)、コーディング能力(HumanEval)の評価において、新たな性能基準を設定しています。結果は表1に示されています。 https://scrapbox.io/files/6674a951b918a4001d8f1eb5.png
hiroya_iizuka.icon すごい...
視覚能力
Claude 3.5 Sonnetは、5つの標準的な視覚ベンチマークにおいても以前のClaude 3モデルを上回り、視覚的数学推論(MathVista)、グラフやチャートに関する質問応答(ChartQA)、文書理解(DocVQA)、科学図表に関する質問応答(AI2D)の評価において最先端の性能を発揮しています。結果は表2に示されています。 https://scrapbox.io/files/6674aa9a670ff6001c91e9ce.png
hiroya_iizuka.icon およそ主要な、Visionのベンチマークのほとんどを、Claude3.5 Sonnetは上回ってる...
エージェント型コーディング
Claude 3.5 Sonnetは、内部のエージェント型コーディング評価で64%の問題を解決しましたが、Claude 3 Opusでは38%でした。この評価では、オープンソースのコードベースを理解し、バグ修正や新機能などの望ましい改善点の自然言語による説明に基づいてプルリクエストを実装するモデルの能力をテストします。
各問題について、完成したコード提出に対してコードベースのすべてのテストが合格するかどうかに基づいてモデルを評価します。テストはモデルには見えず、バグ修正や新機能のテストも含まれています。評価が実世界のソフトウェアエンジニアリングを模倣していることを確認するため、問題はオープンソースのコードベースに提出された実際のプルリクエストに基づいています。変更には、複数のファイル(通常3〜4つ、最大20個)の検索、表示、編集が含まれます。モデルは評価中にエージェントループでコードを書いて実行し、反復的に自己修正することが許可されています。これらのテストは、インターネットにアクセスできない安全なサンドボックス環境で実行します。結果は表3に示されています。
https://scrapbox.io/files/6674ad28fe8eb3001c86a1a1.png
hiroya_iizuka.icon これが地味にすごいな。実際のエンジニアがやっていることとほぼ同じこと(Open Sourceの実際のコードにPR投げて、修正や新機能追加)を、比較的高いレベルで実現できる。
hiroya_iizuka.icon 初級レベルのエンジニアが代替される未来がすぐそこまできている。
拒否
Claude 3.5 Sonnetの有害な要求と無害な要求を区別する能力を評価しました。WildchatおよびXSTestデータセットを使用するこれらのテストは、無害なプロンプトに対する不必要な拒否を避けつつ、有害なコンテンツに対して適切な注意を維持するモデルの能力を測定するように設計されています。 Claude 3.5 Sonnetは両方の側面でOpusを上回りました:
不適切な拒否が少なく、適切な拒否が多くなっています。
結果は表4に示されています。
https://scrapbox.io/files/668f46a0eadef8001c118364.png
hiroya_iizuka.icon 適切な拒否はOpusより上で、これまでのClaudeモデルの中で、最も安全と言える。
hiroya_iizuka.icon 過剰拒否は、Wildchatのnon-toxicでは、Haikuが一番少ないが、XSTestではClaude3.5 Sonnetがレベチで少ない hiroya_iizuka.icon 総合的に、不適切な拒否が少なく、適切な拒否が多いと判断して良いだろう
Claude 3.5 Sonnetを、最大200kトークンのコンテキスト長での検索能力を確認するため、「Needle In a Haystack」タスクの当社版(Claude2.1のための、長文プロンプトのTips)で評価しました。平均リコールはClaude 3 Opusを上回りました。結果は表5、図1、図2に示されています。 https://scrapbox.io/files/668f488dc34456001dfd17ae.png
hiroya_iizuka.icon 左のSonnetの方が、recall率いいのが一目でわかる
hiroya_iizuka.icon たまたまなのかわからんけど、両者とも、末尾にneedleおいた方が性能いいね
https://scrapbox.io/files/668f48f95bf5e2001c0de314.png
2.1 人間のフィードバック評価
Claude 3.5 Sonnetを以前のClaudeモデルと直接比較して評価しました。評価者にモデルとチャットしてもらい、タスク固有の指示を使用して多数のタスクについてモデルを評価してもらいました。図3のチャートは、Claude 3 Opusをベースラインとした場合の「勝率」を示しています。
コーディング、文書、クリエイティブライティング、視覚などの中核的な能力で大きな改善が見られました。専門家はClaude 3.5 SonnetをClaude 3 Opusより好みました。勝率は法律で82%、金融で73%、哲学で73%に達しました。
https://scrapbox.io/files/668f4998713537001c258551.png
hiroya_iizuka.icon Opusがベースラインで、全部50%にしている
hiroya_iizuka.icon 人間の専門家も、ほぼ全てのタスクで、Claude 3.5 Sonnetの出力を好むと。
hiroya_iizuka.icon 特に、経済、法律、医学、哲学で顕著
3 安全性
3.1 はじめに
このセクションでは、安全性評価とコミットメント、およびそれらをClaude 3.5 Sonnetにどのように適用したかについて説明します。
Anthropicは、責任あるAI開発と展開への継続的なコミットメントの一環として、Claude 3.5 Sonnetの評価を実施しました。Claude 3.5 Sonnetは以前にリリースしたOpusモデルと比較して機能が向上していますが、Anthropicの責任あるスケーリングポリシーで説明されている完全な評価プロトコルを実行する4倍の実効計算閾値をトリガーしません。以前、Claude 3 Opusでこの評価プロトコルを実行しており、その詳細は以下でお読みいただけます。 それでも、フロンティアモデルをリリースする前に定期的な安全性テストを行うことは重要だと考えています。たとえRSPで正式に要求されていない場合でも。評価の科学やこれらのテストを実施する理想的な頻度についてはまだ学ぶべきことが多くあり、定期的なテストにより、将来のより高性能なモデルに向けて評価方法を改善することができます。この観点は、主要なモデルリリース前に標的型テストを実施するという自主的なホワイトハウス、G7、ソウルサミットフロンティア安全性コミットメントに反映されています。
当社の安全性チームは、化学・生物・放射線・核(CBRN)リスク、サイバーセキュリティ、自律的能力の分野でClaude 3.5 Sonnetに対して一連の評価を実施しました。評価に基づき、Claude 3.5 Sonnetを壊滅的な害をもたらすリスクがないことを示すAI安全性レベル2(ASL-2)モデルに分類しています。 https://scrapbox.io/files/668f4aa793dca5001cafaa74.png
hiroya_iizuka.icon これまで同様、Claudeのモデルは全て、ASL-2
さらに、英国人工知能安全性研究所(UK AISI)などの外部の第三者評価パートナーと協力して、Claude 3.5 Sonnetを独立して評価しました。
3.2 安全性評価の概要
CBRN、サイバー、自律的能力リスクに焦点を当てたフロンティアリスク評価を実施しました。安全性テストを継続的に改善する取り組みの一環として、Claude 3 Opusに使用したアプローチを改良し、脅威モデルを洗練させ、今回のテストのために新しくより良い評価を設計しました。UK AISIも最終版に近いモデルの展開前テストを実施し、今年初めに発表された米国と英国のAISIの提携により可能となった了解覚書の一環として、その結果を米国AI安全性研究所と共有しました。さらに、METRがモデルの自律性関連能力の初期探索を行いました。 CBRNについては、CBRN知識の自動テストを実施し、CBRN関連タスクにおける非専門家のパフォーマンスを向上させるモデルの能力を測定しました。サイバーセキュリティは、脆弱性の発見とエクスプロイト開発をテストするキャプチャー・ザ・フラグチャレンジを通じて評価されました。自律的能力は、セクション2で説明した内部エージェント型コーディング評価と同様に、事前定義されたコードテストに合格するソフトウェアエンジニア品質のコードを書く能力に基づいて評価されました。各評価領域について、保守的にASL-3の懸念閾値に近いことを示す定量的な「懸念閾値」を定義しました。テスト中にモデルが事前設定した閾値を超えた場合、責任あるスケーリング責任者、評価リーダー、外部の主題専門家で構成される評議会を招集し、モデルの能力が懸念閾値に十分近いかどうかを判断し、より集中的な評価を行うか、安全性とセキュリティ保護を強化するかを決定する予定でした。
HHH訓練を受けたモデルを評価することは課題があります。なぜなら、安全性ガードレールによって、HHH訓練による拒否のために能力評価がモデルの根本的な能力を過小評価する可能性があるためです。私たちの目標は能力を評価することだったので、モデルの拒否をいくつかの方法で考慮しました。まず、トピック全体での拒否の程度を測定し、Claude 3.5 SonnetがASL-3の有害なクエリを十分に拒否して、明らかに有害なクエリに対する有用性を大幅に低下させていることがわかりました。次に、内部研究技術を用いて非拒否モデル応答を取得し、HHHモデルではなくHelpful-onlyモデルとして訓練された場合のモデルのパフォーマンスを推定しました。アライメント訓練により懸念のある回答を控えめにする可能性があるため、結果が同等のHelpful-onlyモデルの能力を過小評価している可能性があることに注意してください。 3.3 安全性評価結果
リスク関連分野での能力がClaude 3 Opusと比較して向上していることが観察されました。このモデルに適用された段階的なトレーニングと引き出し技術と一致して、Claude 3.5 Sonnetでリスク関連分野のパフォーマンスが以前のモデルに対して向上していることが観察されました。Claude 3.5 Sonnetはこれらの評価で安全性閾値を超えず、ASL-2に分類されます。